沙龙干货 | 基于Kubernetes的深度学习算法平台直播回顾集锦
分享PPT下载
关注58AILab公众号,并发送消息 “K8S” 可获取PPT文件下载链接。
分享录像回放
Q&A集锦
答:WFS是58集团存储服务部开发的高性能网络存储系统,用户可以将WFS目录挂载到本地以本地文件系统方式进行访问。WFS经过多个版本迭代,目前功能基本稳定,性能还在持续优化中,WFS大文件读写性能能到达物理机带宽速度。小文件读写性能跟存储配置有关系,如是否使用SSD、存储节点数量、网络带宽等。在不使用SSD、万兆以太网下小文件读速率是hdfs的2~3倍,写速率是hdfs的40+倍。
问题2:k8s 是原生的吗?
答:是的,目前用的社区的K8S版本
问题3:yaml是通过json生成的还是通过模版传入变量生成的?
答:提交到集群的yaml是通过用户在平台web门户配置参数,传递到后台,后台程序通过k8s api将yaml写入k8s集群。
问题4:这里多个模型混合部署,假如有一个模型原来流量少,突然流量增加了,就会影响其他模型,这里怎么处理的?是自动处理吗?
答:多个模型混合部署,其中一个模型流量突然增加不会影响到其他混部的模型。模型进行混部前都会先线上独立部署运行一段时间得到GPU使用率和QPS流量,切混合部署时会根据实际情况申请 GPU资源并设置QPS上限,当某个模型流量突增超过设置QPS时会被秒级限流模块进行限流并进行告警,下一步需要人工进行干预调整该模型资源大小或切换成独立部署。
问题5:Pytorch能混合部署么?
答:可以混合部署,PyTorch没有提供类似TensorFlow-Serving的服务化框架,我们基于Seldon封装了PyTorch模型推理RPC服务,当前封装的这套RPC服务已经兼容PyTorch模型混合部署,近期会进行上线。
问题6:k8s 集群规模有多大
答:大约有几百台物理机。
问题7:推理引擎主要支持的是Tensorflow么?
答:当前平台支持的TensorFlow、PyTorch、Caffe三个深度学习框架的模型推理,公司用的比较多的是TensorFlow和PyTorch。
问题8:推理引擎的软件也是跑在pod里,利用hpa伸缩吗
答:推理引擎的应用程序也是跑在后端pod里,目前没有使用hpa自动伸缩功能。
问题9:shareGPU能支持隔离吗?
答:目前调研到的GPU Sharing常用解决方案都不支持GPU资源的隔离,关于GPU Sharing下如何做资源隔离我们还在调研解决中。
问题10:mount wfs为什么没有选择pv/pvc的方式
答:wfs发布的第一版本物理机安装客户端的方式没有支持pv/pvc。
问题11:我们可以在wpai下载除了weight以外的其它文件吗?比如pd文件
答:模型训练过程中用户保存的文件都可以进行下载,需要用户将文件保存在设定目录下。
问题12:推理服务的那种方案,前面一个服务去接收请求转发到pod,这里pod示例服务的ip是怎么弄的,这里k8s内部网络配置怎么搞的
答:pod实例服务的IP用的是集群内部的虚拟IP,通过k8s网络插件calico来实现内部IP的分配和组网。
我们将深度学习算法平台中的推理服务进行了开源,项目名称为dl_inference
项目地址:
https://github.com/wuba/dl_inference
dl_inference 相关文章:
dl_inference 直播回放:
直播回放 | 通用深度学习推理服务dl_inference开源项目解析
【招聘信息】
AI Lab部门介绍
58同城TEG技术工程平台群AI Lab,旨在推动AI技术在58生活服务行业的落地,打造AI中台能力,以提高前台业务的人效和用户体验。AI Lab目前负责的产品包括:智能客服、语音机器人、智能写稿、智能营销、AI算法平台、智能语音分析平台、语音识别引擎等,未来将持续加速创新,拓展AI应用。
欢迎加入58 AI Lab技术交流社区
团队照片